Classification non supervisée floue des termes basée sur la proximité pour les systèmes de recherche d'information
نویسنده
چکیده
RÉSUMÉ. Le regroupement des termes basé sur la mesure de proximité est une stratégie menant efficacement à trouver les documents pertinents. Contrairement à ce qu’ont montré les études récentes qui ont utilisé la proximité des termes pour le classement des documents, le processus de recherche d’information est entièrement revu dans ce travail en ce qui concerne les étapes d’indexation et d’interrogation. Par conséquent, un Fichier Inverse Etendu est construit en exploitant le concept de proximité des termes et en utilisant les technologies de classification non supervisée. Trois approches d’interrogation sont alors proposées, la première utilise l’expansion de la requête, la seconde est basée sur le Fichier Inverse Etendu et la dernière hybride les méthodes de recherche. De nombreuses expérimentations sur OHSUMED ont été effectuées et les résultats obtenus sont très prometteurs.
منابع مشابه
Extraction de la localisation des termes pour le classement des documents
Résumé. Trouver et classer les documents pertinents par rapport à une requête est fondamental dans le domaine de la recherche d’information. Notre étude repose sur la localisation des termes dans les documents. Nous posons l’hypothèse que plus les occurrences des termes d’une requête se retrouvent proches dans un document alors plus ce dernier doit être positionné en tête de la liste de réponse...
متن کاملDocCat: un composant logiciel de catégorisation de documents et de marquage sémantique XML
Résumé : Cet article présente DocCat un composant logiciel de catégorisation de documents. Cet outil permet de générer des balises sémantiques et de les stocker dans une base de données au format XML. DocCat intègre une méthode d’apprentissage supervisée pour classer des documents texte dans des catégories prédéfinies. Les catégories ainsi induites permettent le balisage du document. L’intérêt ...
متن کاملUtilisation de relations ontologiques pour la comparaison d'images décrites par des annotations sémantiques
Résumé. Face à la complexité des nouvelles générations d’images médicales, les processus de recherche d’images basés sur leurs contenus visuels peuvent s’avérer insuffisants. Cet article propose une nouvelle approche basée sur l’annotation des images via des termes sémantiques pouvant pallier ce problème. Elle repose sur la combinaison d’une distance hiérarchique permettant de comparer les imag...
متن کاملMesures de similarité de trajectoires basées sur l'utilisation de patrons spatio-temporels
RÉSUMÉ. Les systèmes de suivi d’objets mobiles permettent de surveiller en temps réel leurs déplacements. Le stockage de ces données de positions offre des perspectives intéressantes en termes d’analyse de trajectoires. La fouille de données dans des historiques de déplacements d’objets mobiles permet d’identifier des patrons spatio-temporels. En s’appuyant sur ces patrons, il est alors possibl...
متن کاملRecherche d'information dans des documents structurés par proximité des termes
RÉSUMÉ. Nous présentons une méthode pour calculer un score d’un élément quelconque d’un document structuré qui prend en compte la proximité des termes de la requête dans le texte du document. Plus précisément nous définissons autour de chaque occurrence d’un terme de la requête une fonction d’influence. Pour une occurrence qui apparaît dans le texte proprement dit, cette fonction d’influence dé...
متن کامل